本文重新讨论了统计学习中统一融合的原则,讨论了它是机器学习背后的基础,并试图更好地了解当前深度学习算法正在解决的基本问题。讨论以计算机视觉作为机器学习中的示例领域,表明,利用越来越大规模数据进行预训练的最新研究趋势在很大程度上是为了减少实际上可探索的经验损失与最终所需的差异,但最终所需的差异可悲的预期损失。此外,本文提出了一些未来的研究方向,可以预测数据的持续增加,并认为通过结合结构和知识,需要更多的基础研究,以鲁棒性,可解释性和机器学习的推理能力。
translated by 谷歌翻译
在深层网络和人工智能复兴的十年中,我们提出了一个理论框架,该框架阐明了一般智力的更大范围内的深层网络。我们介绍了两个基本原则,即简短和自持矛盾,我们认为这是智力,人为或自然的兴起的基石。尽管这两个原则具有丰富的古典根源,但我们认为可以以完全可衡量和可计算的方式重新说明它们。更具体地说,这两个原理导致了有效,有效的计算框架,即压缩闭环转录,该框架统一并解释了现代深层网络和许多人工智能实践的演变。尽管我们主要以视觉数据的建模为例,但我们认为这两个原则将统一对自主智能系统的广泛家庭的理解,并为理解大脑提供了一个框架。
translated by 谷歌翻译
In this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask prediction branch which supports all image segmentation tasks (instance, panoptic, and semantic). It makes use of the query embeddings from DINO to dot-product a high-resolution pixel embedding map to predict a set of binary masks. Some key components in DINO are extended for segmentation through a shared architecture and training process. Mask DINO is simple, efficient, and scalable, and it can benefit from joint large-scale detection and segmentation datasets. Our experiments show that Mask DINO significantly outperforms all existing specialized segmentation methods, both on a ResNet-50 backbone and a pre-trained model with SwinL backbone. Notably, Mask DINO establishes the best results to date on instance segmentation (54.5 AP on COCO), panoptic segmentation (59.4 PQ on COCO), and semantic segmentation (60.8 mIoU on ADE20K) among models under one billion parameters. Code is available at \url{https://github.com/IDEACVR/MaskDINO}.
translated by 谷歌翻译
我们将Dino(\ textbf {d} etr与\ textbf {i} mpred de \ textbf {n} oising hand \ textbf {o} r boxes),一种最先进的端到端对象检测器。 % 在本文中。 Dino通过使用一种对比度方法来降级训练,一种用于锚定初始化的混合查询选择方法以及对盒子预测的两次方案,通过使用对比的方式来改善性能和效率的模型。 Dino在$ 12 $时代获得$ 49.4 $ ap,$ 12.3 $ ap in Coco $ 24 $时期,带有Resnet-50骨干和多尺度功能,可显着改善$ \ textbf {+6.0} $ \ textbf {ap}和ap {ap}和ap}和$ \ textbf {+2.7} $ \ textbf {ap}与以前的最佳detr样模型相比,分别是dn-detr。 Dino在模型大小和数据大小方面都很好地缩放。没有铃铛和哨子,在对objects365数据集进行了swinl骨架的预训练后,Dino在两个Coco \ texttt {val2017}($ \ textbf {63.2} $ \ textbf {ap ap})和\ testtt { -dev}(\ textbf {$ \ textbf {63.3} $ ap})。与排行榜上的其他模型相比,Dino大大降低了其模型大小和预训练数据大小,同时实现了更好的结果。我们的代码将在\ url {https://github.com/ideacvr/dino}提供。
translated by 谷歌翻译
Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.
translated by 谷歌翻译
建筑摄影是一种摄影类型,重点是捕获前景中带有戏剧性照明的建筑物或结构。受图像到图像翻译方法的成功启发,我们旨在为建筑照片执行风格转移。但是,建筑摄影中的特殊构图对这类照片中的样式转移构成了巨大挑战。现有的神经风格转移方法将建筑图像视为单个实体,它将产生与原始建筑的几何特征,产生不切实际的照明,错误的颜色演绎以及可视化伪影,例如幽灵,外观失真或颜色不匹配。在本文中,我们专门针对建筑摄影的神经风格转移方法。我们的方法解决了两个分支神经网络中建筑照片中前景和背景的组成,该神经网络分别考虑了前景和背景的样式转移。我们的方法包括一个分割模块,基于学习的图像到图像翻译模块和图像混合优化模块。我们使用了一天中不同的魔术时代捕获的不受限制的户外建筑照片的新数据集培训了图像到图像的翻译神经网络,利用其他语义信息,以更好地匹配和几何形状保存。我们的实验表明,我们的方法可以在前景和背景上产生逼真的照明和颜色演绎,并且在定量和定性上都优于一般图像到图像转换和任意样式转移基线。我们的代码和数据可在https://github.com/hkust-vgd/architectural_style_transfer上获得。
translated by 谷歌翻译
早期预测在临床上被认为是脑瘫(CP)治疗的重要部分之一。我们建议实施一个基于一般运动评估(GMA)的CP预测的低成本和可解释的分类系统。我们设计了一个基于Pytorch的注意力图形卷积网络,以识别从RGB视频中提取的骨骼数据中有CP风险的早期婴儿。我们还设计了一个频率模块,用于在过滤噪声时学习频域中的CP运动。我们的系统仅需要消费级RGB视频进行培训,以通过提供可解释的CP分类结果来支持交互式时间CP预测。
translated by 谷歌翻译
肌肉骨骼和神经系统疾病是老年人行走问题的最常见原因,它们通常导致生活质量降低。分析步行运动数据手动需要训练有素的专业人员,并且评估可能并不总是客观的。为了促进早期诊断,最近基于深度学习的方法显示了自动分析的有希望的结果,这些方法可以发现传统的机器学习方法中未发现的模式。我们观察到,现有工作主要应用于单个联合特征,例如时间序列的联合职位。由于发现了诸如通常较小规模的医疗数据集的脚之间的距离(即步幅宽度)之类的挑战,因此这些方法通常是优选的。结果,我们提出了一种解决方案,该解决方案明确地将单个关节特征和关节间特征作为输入,从而使系统免于从小数据中发现更复杂的功能。由于两种特征的独特性质,我们引入了一个两流框架,其中一个流从关节位置的时间序列中学习,另一个从相对关节位移的时间序列中学习。我们进一步开发了一个中层融合模块,以将发现的两个流中发现的模式结合起来进行诊断,从而导致数据互补表示,以获得更好的预测性能。我们使用3D骨架运动的基准数据集涉及45例肌肉骨骼和神经系统疾病的患者,并实现95.56%的预测准确性,效果优于最先进的方法,从而验证了我们的系统。
translated by 谷歌翻译
手术工作流程预期可以预测进行哪些步骤或接下来使用哪些工具,这是计算机辅助干预系统的重要组成部分,例如机器人手术中的工作流程推理。但是,当前的方法仅限于它们在工具之间关系的表达能力不足。因此,我们提出了一个图形表示学习框架,以全面表示手术工作流期望问题中的仪器运动。在我们提出的图表表示中,我们将仪器的边界框信息映射到连续帧中的图节点,并构建框架间/互动图形的图形边缘,以表示随着时间的推移仪器的轨迹和相互作用。这种设计增强了我们网络对手术仪器的空间和时间模式及其相互作用的建模能力。此外,我们设计了一种多型胜利学习策略,以平衡对各种视野无动于衷的预期任务的理解,从而大大改善了各种视野的预期模型性能。 cholec80数据集的实验证明了我们提出的方法的性能可以超过基于较富主链的最新方法,尤其是在仪器预期中(1.27 v.s. 1.48 for Inmae; 1.48 v.s. 2.68 for Emae)。据我们所知,我们是第一个将时空图表引入外科工作流程预期的人。
translated by 谷歌翻译
唇裂是一种先天性异常,需要专家手术修复。外科医生必须具有丰富的经验和理论知识才能进行手术,并且已经提出了人工智能(AI)方法来指导外科医生改善手术结局。如果可以使用AI来预测修复的唇唇的外观,那么外科医生可以将其用作辅助手术技术来调整其手术技术并改善结果。为了在保护患者隐私时探索这个想法的可行性,我们提出了一种基于深度学习的图像镶嵌方法,该方法能够覆盖唇裂,并产生唇彩,而无需裂缝。我们的实验是在两个现实世界中的裂口数据集上进行的,并由专家cleft唇外科医生评估,以证明该方法的可行性。
translated by 谷歌翻译